详情新增GUI Agent能力！豆包1.5·视觉深度思考模型可完成多端复杂任务,考研信息网

新增GUI Agent能力！豆包1.5·视觉深度思考模型可完成多端复杂任务

/ 2025/05/13 15:49

来源：

考研信息网

作者：

手机查看

新增GUI Agent能力！豆包1.5·视觉深度思考模型可完成多端复杂任务　　此外，该模型新增GUI Agent能力。基于强大的GUI定位性能，可在PC端、手机端等不同环境中完成复杂交互任务。例如，可对新开发的APP功能进行自动化检测，目前该功能已经应用于字节跳动多款APP产品的开发测试中。　　同时，新增视频深度思考能力。模型学习了数万亿多模态标记数据，掌握广泛视觉知识，结合强化学习，使视觉推理能力大幅提升。例如，在复杂的图形推理题中，模型提出假设，进行推理检验，当发现和假设不一样时，还能进行不断反思，提出新的猜测，直到得出正确答案。　　在视频理解方面，支持动态帧率采样，视频时序定位能力显著增强，结合向量搜索，可精准定位视频中与文本描述相对应的片段。。

人形机器人产业链景气度高企三类企业值得重点关注

欧股开盘涨跌不一德国DAX指数涨0.3%

自动系统附属购入ATW基金的有限合伙权益

智能手表眼镜等存泄密隐患，国安部提醒：严禁在涉密场所使用

高盛首席经济学家闪辉：高品质住房供给将成为未来房地产政策抓手

。

责编：王敏

审签：

责编：王敏

审签：